
هوش مصنوعی به هر کسی امکان ساخت ویدئو را میدهد، اما بسیاری از ابزارهای ساخت ویدئوی مبتنی بر هوش مصنوعی از پشتیبانی صوت برخوردار نیستند. Mirelo در حال توسعه هوش مصنوعی است که برای تطبیق دادن صدا با اقدامات داخل ویدئو، موسیقی و افکتهای صوتی تولید میکند.
اوایل امسال، استارتاپ Mirelo مستقر در برلین نسخه اول مدل هوش مصنوعی خود با نام Mirelo SFX v1.5 را منتشر کرد که قادر است ویدئو را تفسیر کرده و افکتهای صوتی (SFX) هماهنگ با تصویر ایجاد کند.
این دستاورد توجه سرمایهگذاران خطرپذیر مشتاق به انقلاب هوش مصنوعی مولد در بازیسازی را جلب کرد. این استارتاپ آلمانی که حدود دو سال فعالیت دارد، موفق شده در دور ابتدایی جذب سرمایه، ۴۱ میلیون دلار از صندوقهای سرمایهگذاری Index Ventures و Andreessen Horowitz دریافت کند که خبرنگار به طور اختصاصی از آن مطلع شده است.
این سرمایه جدید کمک خواهد کرد تا Mirelo بتواند در حوزه رو به رشد خود رقابتیتر ظاهر شود. در دورانی که هنوز در حالت مخفی و با محدودیت منابع قرار داشت، شرکتهای بزرگی چون سونی و تنسنت مدلهای ویدئو به افکت صوتی را عرضه کردند. همینطور Kling AI که متعلق به Kuaishou در چین است و ElevenLabs نیز مدلهایی عرضه کردند که هر دو مورد حمایت a16z هستند.
اگرچه Mirelo تمرکز محدودتری نسبت به این شرکتها دارد، اما برای موفقیت بلندمدت نیاز دارد تیم خود را گسترش دهد. CJ Simon-Gabriel مدیرعامل و یکی از بنیانگذاران Mirelo به منبع گفت که انتظار میرود تعداد اعضای تیم این استارتاپ تا پایان سال آینده میلادی از ۱۰ نفر فعلی حداقل دو یا حتی سه برابر شود.
افراد جدید قرار است در زمینه تحقیق و توسعه، توسعه محصول و استراتژی ورود به بازار به Mirelo کمک کنند. این استارتاپ مدلهای خود را در Fal.ai و Replicate ارائه داده و به گفته Simon-Gabriel، پیشبینی میشود استفاده از API بخش عمدهای از درآمد کوتاهمدت شرکت را تأمین کند. با این حال، سرمایهگذاری قابل توجهی نیز برای توسعه فضای کاری مخصوص تولیدکنندگان محتوا با نام Mirelo Studio انجام دادهاند که ممکن است در آینده برای حرفهایها نیز مناسب شود.
همزمان با برنامهریزی برای رشد، Mirelo و سرمایهگذاران آن نیز به دغدغههایی درباره دادههای آموزشی که شرکتهای دیگر حوزه هوش مصنوعی مولد با آن مواجه بودهاند، فکر میکنند. به گفته Georgia Stevenson که هدایت سرمایهگذاری Index را برعهده داشته، مدلهای Mirelo براساس مجموعههای صوتی عمومی و خریداریشده ساخته شده و با هنرمندان توافقهای همکاری در درآمد دارد تا حقوق آنها رعایت شود.
این یک چالش ذاتی ابزارهای هوش مصنوعی مولد است، اما تا این لحظه Mirelo جایگزین موزیسینها و طراحان صدا نشده است. با ارائه مدل فریمیوم که پلن پیشنهادی آن برای تولیدکنندگان محتوا با قیمت ۲۰ یورو در ماه (حدود ۲۳.۵ دلار) عرضه میشود، Mirelo عمدتاً بازار هدف خود را افراد آماتور و نیمهحرفهای قرار داده که میخواهند ویدئوهای تولیدشده توسط هوش مصنوعی را از حالت بیصدا خارج کنند.
به گفته Simon-Gabriel، بدون صدا تولیدکنندگان محتوا نمیتوانند از پتانسیل واقعی ویدئوهای هوش مصنوعی بهرهمند شوند.
او میگوید: «جرج لوکاس گفته است که صدا پنجاه درصد از تجربه فیلم دیدن را تشکیل میدهد. این حرفی اغراقآمیز نیست؛ اگر چیزی اغراقآمیز باشد این است که کم گفته شده. شما میتوانید دقیقاً همان تصاویر را قرار دهید و بسته به نوع صدا و موسیقیای که بر آن میگذارید، حال و هوای کاملاً متفاوتی را شکل میدهید.»
او و شریکش، Florian Wenzel، هر دو پژوهشگر هوش مصنوعی و همچنین موزیسین هستند و افزودن تولید موسیقی با هوش مصنوعی نیز در نقشه راه Mirelo قرار دارد. با این وجود به گفته Simon-Gabriel، تقاضا برای افکتهای صوتی بیشتر است، چون در این حوزه نسبت به دیگر حوزههای هوش مصنوعی تحقیقات کمتری انجام شده است.
او میگوید: «اینجا راحتتر میتوان یک مزیت رقابتی واقعی ایجاد کرد و سپس از آن بهره برد.»
این موضوع میتواند برای Mirelo سودآور باشد. Simon-Gabriel از اعلام ارزشگذاری جدید شرکت خودداری کرد، اما گفت که این رقم نسبت به دور پیشبذری که اطلاعرسانی نشده بود، «خیلی چشمگیر» افزایش داشته است. در دوره پیشین هم شرکتAtlantic مستقر در برلین پیشگام سرمایهگذاری بود و در این دوره جدید نیز شرکت داشته تا مجموع سرمایه جذب شده Mirelo به ۴۴ میلیون دلار برسد و شکاف منابع آن کاهش یابد.
علاوه بر این، استارتاپ توسط فرشتههای سرمایهگذاری معتبری پشتیبانی میشود که میتوانند اعتبار بیشتری برای فناوری آن ایجاد کنند و راههای جدیدی را باز کنند؛ از جمله Arthur Mensch مدیرعامل Mistral ، Thomas Wolf مدیر ارشد علمی Hugging Face ، Burkay Gur یکی از بنیانگذاران Fal.ai و افراد دیگر.
با این حال، تیم Mirelo آگاه است که ویدئوهای تولیدشده با هوش مصنوعی ممکن است به زودی بیصدا باقی نمانند.
برای مثال، تولیدکننده ویدئوی Gemini اکنون برای افزودن موسیقی به ویدئوها از مدل تبدیل ویدئو به صدا Veo 3.1 متعلق به DeepMind استفاده میکند. اما Simon-Gabriel در نهایت این موضوع را تأییدی بر راه Mirelo میداند: «حالا ناگهان مردم متوجه میشوند که ‘آه، شاید باید صدا هم اضافه کنیم’. اما روشن است که باید این کار را بکنید. این شبیه دوران فیلمهای صامت در مقابل فیلمهای صوتی است، تفاوت بزرگی ایجاد میکند!»



